82 research outputs found

    Salaiset pakkokeinot ja ylimääräisen tiedon hyödynnettävyys näyttönä rikosasiassa

    Get PDF
    Tutkielma käsittelee tiettyjen salaisten pakkokeinojen (telekuuntelu, televalvonta, tukiasematietojen hankkiminen ja tekninen tarkkailu) käytön yhteydessä syntynyttä ylimääräistä tietoa ja sen hyödynnettävyyttä näyttönä esitutkinnan ja syyteharkinnan jälkeisessä oikeudenkäynnissä. Uudet esitutkintaa sääntelevät lait tulivat voimaan vuonna 2014, jolloin pakkokeinolakiin lisättiin ylimääräisen tiedon määritelmää sekä sen käyttöä koskevat säännökset. Aiemmin ylimääräinen tieto oli vapaasti hyödynnettävissä vapaan todistusteorian pohjalta, samalla tapaa kuin mikä tahansa muu poliisin tietoon tullut tieto. Käyttöä rajoitti vain laissa säädetty säännös ylimääräisen tiedon hävittämisestä. Vapaaseen todisteluun perustuvasta vapaasta hyödynnettävyydestä on sittemmin siirrytty tilanteeseen, jossa ylimääräisen tiedon käyttäminen on lain perusteella sallittua vain, jos salaista pakkokeinoa olisi saatu käyttää sen pakkokeinon yhteydessä, millä tieto saatiin taikka kyse on säännöksessä mainitusta riittävän vakavasta rikoksesta. Oikeudenkäymiskaaren 17 luvun todistelua koskeva uudistus tuli voimaan vuonna 2016, jolloin lakiin lisättiin uusi säännös todistelussa sovellettavasta hyödyntämiskiellosta. Sen kolmas momentti sisältää uudenlaisen yleissäännöksen todisteiden hyödyntämiskiellosta, joka on mahdollistanut myös lainvastaisesti hankitun todisteen hyödyntämisen, mikäli vain varmistetaan, ettei hyödyntäminen vaaranna oikeudenmukaista oikeudenkäyntiä. Tämän tutkielman tarkoituksena on avata ylimääräisen tiedon hyödyntämisen rajanvetoa sekä selvittää laajensiko oikeudenkäymiskaaren uudistus jo ennestään tulkinnanvaraista ylimääräisen tiedon hyödyntämistä. Tutkimuksen lähteinä on käytetty ensisijaisesti voimassa olevaa lainsäädäntöä lainvalmisteluasiakirjoineen ja sen tutkimusmetodina lähtökohtaisesti on lainopillinen tutkimus. Aihe huomioon ottaen tutkielman tärkeimpiä lähteitä ovat olleet teokset: Pölönen – Tapanila: ”Todistelu oikeudenkäynnissä” (2015) ja Helminen ym.: ”Esitutkinta ja pakkokeinot” (2014). Oikeuskirjallisuuden ja -käytännön valossa näyttää siltä, että pakkokeinolain säännös on tarkoitettu rajaaman ylimääräisen tiedon hyödyntämisen sallittavuutta, vaikka tulkinnanvaraa soveltamisalasta löytyy. Tutkielmassa annetaan perusteita säätää laissa nykyistä kattavammin ylimääräisen tiedon hyödyntämisestä ja sitä kautta selkiyttää säännöksien soveltamisalaa

    Proceedings of the 13th Conference on Language Resources and Evaluation (LREC 2022)

    Get PDF
    The prevailing practice in the academia is to evaluate the model performance on in-domain evaluation data typically set aside from the training corpus. However, in many real world applications the data on which the model is applied may very substantially differ from the characteristics of the training data. In this paper, we focus on Finnish out-of-domain parsing by introducing a novel UD Finnish-OOD out-of-domain treebank including five very distinct data sources (web documents, clinical, online discussions, tweets, and poetry), and a total of 19,382 syntactic words in 2,122 sentences released under the Universal Dependencies framework. Together with the new treebank, we present extensive out-of-domain parsing evaluation utilizing the available section-level information from three different Finnish UD treebanks (TDT, PUD, OOD). Compared to the previously existing treebanks, the new Finnish-OOD is shown include sections more challenging for the general parser, creating an interesting evaluation setting and yielding valuable information for those applying the parser outside of its training domain.</p

    Universal Lemmatizer: A sequence-to-sequence model for lemmatizing Universal Dependencies treebanks

    Get PDF
    In this paper, we present a novel lemmatization method based on a sequence-to-sequence neural network architecture and morphosyntactic context representation. In the proposed method, our context-sensitive lemmatizer generates the lemma one character at a time based on the surface form characters and its morphosyntactic features obtained from a morphological tagger. We argue that a sliding window context representation suffers from sparseness, while in majority of cases the morphosyntactic features of a word bring enough information to resolve lemma ambiguities while keeping the context representation dense and more practical for machine learning systems. Additionally, we study two different data augmentation methods utilizing autoencoder training and morphological transducers especially beneficial for low-resource languages. We evaluate our lemmatizer on 52 different languages and 76 different treebanks, showing that our system outperforms all latest baseline systems. Compared to the best overall baseline, UDPipe Future, our system outperforms it on 62 out of 76 treebanks reducing errors on average by 19% relative. The lemmatizer together with all trained models is made available as a part of the Turku-neural-parsing-pipeline under the Apache 2.0 license.</p

    Dependency profiles as a tool for big data analysis of linguistic constructions: a case study of emoticons

    Get PDF
    This study presents a methodological toolbox for big data analysis of linguistic constructions by introducing dependency profiles, i.e., co-occurrences of linguistic elements with syntax information. These were operationalized by reconstructing sentences as delexicalized syntactic biarcs, subtrees of dependency analyses. As a case study, we utilize these dependency profiles to explore usage patterns associated with emoticons, the graphic representations of facial expressions. These are said to be characteristic of Computer-Mediated Communication, but typically studied only in restricted corpora. To analyze the 3.7-billion token Finnish Internet Parsebank we use as data, we apply clustering and support vector machines. The results show that emoticons are associated with three typical usage patterns: stream of the writer’s consciousness, narrative constructions and elements guiding the interaction and expressing the writer’s reactions by means of interjections and discourse particles. Additionally, the more frequent emoticons, such as :), are used differently than the less frequent ones, such as ^_^.Kokkuvõte. Veronika Laippala, Aki-Juhani Kyröläinen, Jenna Kanerva, Juhani Luotolahti ja Filip Ginter: Sõltuvusprofiilid kui vahend suurandmete keeleliste konstruktsioonide analüüsimiseks: uurimus emotikonidest. Uurimuses esitame metodoloogilise “tööriistakomplekti” keelekonstruktsioonide analüüsimiseks suurandmete põhjal, rakendades sõltuvusprofiile. Sõltuvusprofiil on lingvistiliste elementide koosesinemise esitusviis, kuhu on kaasatud süntaktiline informatsioon. Selleks on laused konstrueeritud sõltuvusanalüüsi alampuudena, kus süntaktiline info on esitatud sõnadevaheliste (kaksik-)kaarte abil. Artiklis rakendame sõltuvusprofiile selleks, et selgitada välja emotikonide kasutusmustrid. Näomiimika graafilised esitused on iseloomulikud arvuti suhtlusele, mida tavaliselt uuritakse piiratud korpuse põhjal, kuid meie kasutame klasterdamist ja tugivektor-masinaid 3,7 miljardi sõna suuruse Soome Interneti Puudepangal. Selgub, et emotikonide kasutus seostub kolme peamise kasutusmustriga: kirjutaja teadvuse vooluga, narratiivsete konstruktsioonidega ning hüüdsõnade ja diskursusepartiklitega, mis juhivad suhtlust ja väljendavad kirjutaja reaktsioone. Lisaks selgub, et sagedastel emotikonidel nagu :), on rohkem erinevaid kasutusi kui harvadel emotikonidel nagu ^_^.Võtmesõnad: sõltuvusprofiilid; kasutuspõhine süntaks; arvutisuhtlus; emotikonid; veebikorpus; soome kee

    Dependency parsing of biomedical text with BERT

    Get PDF
    Abstract Background: : Syntactic analysis, or parsing, is a key task in natural language processing and a required component for many text mining approaches. In recent years, Universal Dependencies (UD) has emerged as the leading formalism for dependency parsing. While a number of recent tasks centering on UD have substantially advanced the state of the art in multilingual parsing, there has been only little study of parsing texts from specialized domains such as biomedicine. Methods: : We explore the application of state-of-the-art neural dependency parsing methods to biomedical text using the recently introduced CRAFT-SA shared task dataset. The CRAFT-SA task broadly follows the UD representation and recent UD task conventions, allowing us to fne-tune the UD-compatible Turku Neural Parser and UDify neural parsers to the task. We further evaluate the efect of transfer learning using a broad selection of BERT models, including several models pre-trained specifcally for biomedical text processing. Results: : We fnd that recently introduced neural parsing technology is capable of generating highly accurate analyses of biomedical text, substantially improving on the best performance reported in the original CRAFT-SA shared task. We also fnd that initialization using a deep transfer learning model pre-trained on in-domain texts is key to maximizing the performance of the parsing methods. Keywords: Parsing, Deep learning, CRAFT</p

    Proceedings of the First Conference on Machine Translation (WMT)

    Get PDF

    Proceedings of the Third Workshop on Discourse in Machine Translation

    Get PDF
    • …
    corecore